Un grupo de investigadores ha estudiado los goles de la Liga Española en los torneos realizados entre los años 2000 al 2013, considerando diferentes tipos de distribuciones (Sánchez-Flores et al. 2016). Los autores indicaron que en promedio se hacen 2.689 goles por partido (punto decimal). Con base en esta información:
Se ocupara la distribución poisson por lo que hay que calcular el lambda: \[\lambda = \frac{2.689*45}{90}\] siendo este lambda la cantidad de goles que se hacen por tiempo (45 minutos).
lambda_tiempo = 2.689/2
prob_primer_tiempo = dpois(0, lambda_tiempo)
print(prob_primer_tiempo)
## [1] 0.26067
Hay un 26% de que las porterias sigan invictas al final del primer tiempo.
Se ocupa la distribución poisson porque se nos da una metrica de tiempo y se trabaja como discreta dado que se trabaja por minuto, ademas nos preguntan por la frecuencia de un evento dado un tiempo
Para calcular la probabilidad de que se hagan 5 goles despues de 3 partidos se ocupa un lambda: \[\lambda = {2.689*3}\] siendo este lambda el promedio de goles que se haria en 3 partidos.
lambda_tres_partidos = 2.689*3
prob_tres_partidos = 1-ppois(5, lambda_tres_partidos)
print(prob_tres_partidos)
## [1] 0.8148246
como se resultado se tiene que hay un 81.5% de que se hagan 5 goles en 3 partidos.
El grafico que denota la distribución de goles por partido es:
goles=seq(0,10)
lambda_partido = 2.689
distribucion = dpois(goles,lambda_partido)
datos=data.frame(goles,distribucion)
grafico = ggplot(data=datos,aes(x=goles,y=distribucion))
grafico = grafico + geom_bar(stat="identity",fill="navajowhite",color="orange3", linewidth = 0.1)
grafico = grafico + theme_bw() + ggtitle("Distribución de probabilidades - Poisson")
grafico = grafico + xlab("Número de goles x partido") + ylab("Probabilidad")
ggplotly(grafico)
Según datos del DEMRE, la antigua Prueba de Selección Universitaria (PSU) tenía una escala que iba de 150 a 850 puntos, siguiendo una distribución normal con promedio de 500 puntos y desviación estándar de 110. Por otro lado, la prueba PAES va de 100 a 1000 puntos y también sigue una distribución normal con media de 640 y desviación estándar de 140 puntos.
Los puntajes considerados son en base a la psu, 715 para Lucas y 710 para Joaquín
lucas = 715
joaquin = 710
mayores_lucas = 1-pnorm(lucas, mean=500, sd=110)
mayores_joaquin = 1-pnorm(joaquin, mean=500, sd=110)
print(mayores_lucas)
## [1] 0.02531837
print(mayores_joaquin)
## [1] 0.02812518
Se ocupa uno menos la pnorm que calcula el porcentaje de personas con menor puntaje que lo evaluado
Se ocupa la distribucion anterior pero usando el puntaje de corte y se ve el porcentaje de gente que posee un puntaje igual o menor a este
excluidos = pnorm(647, mean=500, sd=110)
print(excluidos)
## [1] 0.9092848
lo que equivale a un 90.9% de la población
puntaje=seq(150,850)
distribucion = dnorm(puntaje, mean=500, sd=110)
datos=data.frame(puntaje,distribucion)
grafico = ggplot(data=datos,aes(x=puntaje,y=distribucion))
grafico = grafico + geom_bar(stat="identity",fill="navajowhite",color="orange3", linewidth = 0.1)
grafico = grafico + theme_bw() + ggtitle("Distribución de probabilidades - Normal")
grafico = grafico + xlab("Puntajes PSU") + ylab("Población")
ggplotly(grafico)
Un investigador está utilizando un modelo para explicar una variable fisiológica causante de una enfermedad (Rivas 2006). Este modelo requiere la estimación de cinco parámetros que pueden tomar un valor entre 0 a 100. Para llevar a cabo la estimación, el investigador ha discretizado el intervalo de cada parámetro en 100 partes.
La cantidad de modelos que deben ser evaluados depende de la combinación de los valores. tenemos 101 intervalos y 5 parametros
parametros = 5
intervalos = 101
combinaciones = intervalos^parametros
print(combinaciones)
## [1] 10510100501
horas = combinaciones/60
print(horas)
## [1] 175168342
el tiempo total que se va a demorar es 175168342 horas, lo que es un tiempo muy grande.
Se sabe que se tiene una distribución normal con media 50 y desviación estándar 10, la probabilidad de que los valores esten entre 40 y 60 es:
probabilidad = round(pnorm(60,50,10)-pnorm(40,50,10),2)
print(probabilidad)
## [1] 0.68
Arroja un valor de 0.68 que equivale a un 68% de probabilidades de que encuentre mejores parametros en estos rangos, dejando el numero de combinaciones en \[30^5 = 24300000\] y se demore un aproximado de 405000 horas.
Como recomendación, hacer menos intervalos para reducir circunstancialmente el tiempo de busqueda por ejemplo reducir los intervalos a la mitad da como resultado \[15^5 = 759375\] con un tiempo total aproximado 12656 horas y 15 minutos para un rango de 60 y 40.